挑戰Kaggle:Bengali.AI Speech Recognition-Recognize Bengali speech from out-of-distribution audio recordings。
目標:建立一個語音模型,使用挑戰所提供的資料集(Massively Crowdsourced (MaCro) Bengali speech dataset)訓練,該資料集的音檔來自於印度與孟加拉募集約24000人所錄製的1200小時音檔。
動機:孟加拉語是全世界多人使用的語言之一,而不同的宗教或種族所說的孟加拉語會有所不同,Google針對孟加拉語的WER(字詞錯誤率)高達74%。
模型評估:使用Word Error Rate(WER)來評估,將於測試集中每個實例計算WER,並在每個領域的WER做平均且案自數做加權計算。最後,把每個領域的WER做平均(未加權)作為最後的分數。
繳交格式:除了Code之外,繳交的csv檔須包含兩個欄位,id
and sentence
程式碼需求:
submission.csv
從Kaggle挑戰的數據中隨機挑選20個音檔,用SeamlessM4T的既有模型做S2TT(Speech-to-Text)翻譯,以其中一個音檔作範例,程式碼及音檔播放如下:
translated_text, _, _ = translator.predict(
"./0000e711c2b1.wav",
"s2tt",
tgt_lang="ben"
)
print(translated_text)
#তিনি এবং তার মা তাদের পৈতৃক বাড়ি থেকে প্রতিবেশীদের দ্বারা অনেক তিরস্কার সহ্য করেন।
將預測後的文本與數據中的正確文本做WER(Word Error Rate)計算,WER數字越小表示翻譯結果越佳:
from jiwer import wer
sentence = "তিনি এবং তাঁর মা তাদের পৈতৃক বাড়িতে থেকে প্রতিবেশীদের দ্বারা অনেক তিরস্কার সহ্য করেন।"
predicted = "তিনি এবং তার মা তাদের পৈতৃক বাড়ি থেকে প্রতিবেশীদের দ্বারা অনেক তিরস্কার সহ্য করেন।"
error = wer(sentence, predicted)
print(error) # 0.14285714285714285
將20個音檔的翻譯結果列表如下,:
id | sentence | predicted | WER |
---|---|---|---|
0000e711c2b1 | তিনি এবং তাঁর মা তাদের পৈতৃক বাড়িতে থেকে প্রতিবেশীদের দ্বারা অনেক তিরস্কার সহ্য করেন। | তিনি এবং তার মা তাদের পৈতৃক বাড়ি থেকে প্রতিবেশীদের দ্বারা অনেক তিরস্কার সহ্য করেন। | 0.1428571429 |
00036c2a2d9d | কৃত্তিবাস রামায়ণ-বহির্ভূত অনেক গল্প এই অনুবাদে গ্রহণ করেছিলেন। | কৃতীবাস রামায়ণ বহির্ভূত অনেক গল্প এই অনুবাদে গ্রহণ করেছিলেন। | 0.375 |
00065f40df52 | তিনি বিজয়নগর সাম্রাজ্যের বিরুদ্ধে এবং বিজাপুরের মুসলিম প্রতিবেশীদের বিরুদ্ধেও যুদ্ধ করেছিলেন। | তিনি বিজয়নগর সাম্রাজ্যের বিরুদ্ধে এবং বিজাপুরের মুসলিম প্রতিবেশীদের বিরুদ্ধেও যুদ্ধ করেছিলেন। | 0 |
0009b022c8ea | এটি মূলত একটি মরুময় অঞ্চল। | এটি মূলত একটি জলাভূমি অঞ্চল | 0.4 |
000b54ab9fd0 | সড়কটি বিহার-পশ্চিমবঙ্গ সীমান্ত অতিক্রম করে পশ্চিমবঙ্গ রাজ্যে প্রবেশ করে উত্তর দিনাজপুর জেলা হয়ে। | সড়কটি বিহার-পশ্চিমবঙ্গ সীমান্ত অতিক্রম করে পশ্চিমবঙ্গ রাজ্যে প্রবেশ করে উত্তর দিনাজপুর জেলা হয়ে। | 0 |
000d50ba853a | মাঝে-মধ্যে অন্যান্য দেশের দলও এতে অংশ নেয়। | মাঝে মাঝে অন্যান্য দেশের দলও এতে অংশ নেয়। | 0.2857142857 |
000e1cb60185 | বলকে অবমুক্ত করে পুনরায় শারীরিক ভারসাম্য ফিরিয়ে নিয়ে আনতে হবে। | বলকে অবমুক্ত করে পুনরায় শারীরিক ভারসাম্য ফিরিয়ে আনতে হবে। | 0.1 |
000f52d17f9c | সাংস্কৃতিক উন্নয়নে অত্র প্রতিষ্ঠানটি অত্যন্ত সুপরিচিত। | সাংস্কৃতিক উন্নয়নে অত্র প্রতিষ্ঠানটি অত্যন্ত সুপরিচিত। | 0 |
000fb02d3aca | যথারীতি সেখানেও সাফল্যের স্বাক্ষর রাখলেন সিদ্দিক। | যথারীতি সেখানেও সাফল্যের স্বাক্ষর রাখলেন সিদ্দিক। | 0 |
0012a4506205 | তাদের তিন মেয়ে ছিল। | তাদের তিন মেয়ে ছিল। | 0 |
001580fa2919 | এবার বুঝি আমার পালা? | এ বার পরে আমাদের পালা। | 1.25 |
001d6dc0fe48 | তার বাবা লুৎফর রহমান সেখানে একটি বেসরকারি ফার্মে একজন নিরীক্ষণ কর্মকর্তা হিসেবে কর্মরত ছিলেন। | তার বাবা লুতফুর রহমান সেখানে একটি বেসরকারি ফার্মে একজন নিরীক্ষণ কর্মকর্তা হিসেবে কর্মরত ছিলেন। | 0.07142857143 |
001f20321efd | তৃতীয় শতকে দখলে আসে উত্তর আফ্রিকা, আইবেরীয় উপদ্বীপ, গ্রিস এবং বর্তমান ফ্রান্সের দক্ষিণাংশ। | তৃতীয় শতাব্দীতে দখল করে আসে উত্তর আফ্রিকা, আইবেরীয় উপদ্বীপ, গ্রীস এবং বর্তমান ফ্রান্সের দক্ষিণাংশ। | 0.3076923077 |
0021147cdc91 | আনোয়ারা বাহার চৌধুরী বুলবুল ললিতকলা একাডেমির প্রতিষ্ঠাতাদের অন্যতম ছিলেন। | আনোয়ার বাহার চৌধুরী বুলবুল ললিতকলা একাডেমির প্রতিষ্ঠাতাদের একজন ছিলেন। | 0.2222222222 |
00227b240a0e | যেমন -পানিতে লবণের দ্রবণ। | যেমন, পানিতে লবণের দ্রবণ | 0.75 |
0022fe8aa136 | তথাপি অনেক ঔপনিবেশিক সাম্রাজ্য সম্পর্কে বিভিন্ন ধারণা পোষণ করে। | তবুও অনেক ঔপনিবেশিক সাম্রাজ্য সম্পর্কে বিভিন্ন ধারণা পোষণ করে। | 0.1111111111 |
0024e6237533 | এমনকি নামাযের সময়ও সঙ্গে রাখতেন। | এমনকি নামাজের সময়ও সঙ্গে রাখতেন। | 0.2 |
00287a416cb9 | কুয়াশার একটি পর্দা প্রায়শই পশ্চিমে উষ্ণ এবং পূর্ব দিকে ঠান্ডা এর মধ্যে সংঘর্ষের সাথে থাকে। | কুয়াশার একটি পর্দা প্রায়ই পশ্চিমে উষ্ণ এবং পূর্ব দিকে ঠাণ্ডার মধ্যে সংঘর্ষের সাথে থাকে। | 0.2 |
0028aae2942e | এখানে আছে একটি কুঠি বাড়ি যা নীলকুঠি নামে পরিচিত। | এখানে আছে একটি কুঠী ঘর, যা নীল কুঠী নামে পরিচিত। | 0.4444444444 |
002984bdef0b | তার বাবা তাকে উত্তরাধিকার থেকে বঞ্চিত করেন। | তার বাবা তাকে উত্তরাধিকার থেকে বঞ্চিত করেন। | 0 |
利用WER(Word Error Rate)來評估既有的SeamlessM4T的S2TT的功能,翻譯對象為隨機選擇20個Kaggle挑戰中提供的音檔,20個音檔翻譯中WER最小為0(表示翻譯結果完全正確),最大為1.25(表示翻譯結果差異非常大),平均下來WER為0.24,接下來看看能否藉由訓練集訓練SeamlessM4T來降低錯誤率。